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摘 要 : 


提高 于 旱 预 测 精 度 能 为 流域 干旱 应 对 及 风险 防范 提供 可 靠 数据 支撑 ,构建 比 选 合适 的 于 


y 


旱 模型 是 当前 研究 的 热点 。 研 究 以 4 个 时 间 斥 度 (3.6.9 12 月) 标准 化 降水 指数 (SP1) 为 表征 指标 ， 


ju 


预 


< 


集成 多 样 化 回归 树 , 降 低 了 能 学 习 器 的 负 
包含 噪声 的 降水 数据 的 能 力 更 强 。 
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文章 编号 : 


干旱 是 最 常见 .最 复杂 、 对 人 类 社会 影响 最 为 
严重 的 气象 灾害 之 一 , 随 着 气候 变 暖 海河 流域 干 
旱 严重 程度 趋 于 上 升 且 发 生 范 围 越 来 越 广 2 -3 ,由 
于 旱 引起 的 旱灾 程度 在 不 断 加 重 。 提 早 开 展 干旱 
预测 预报 能 够 及 时 建立 干旱 预警 机 制 ,进行 有 效 防 
范 ,减少 干旱 对 人 民生 命 财产 及 生态 环境 的 影响 。 
因此 ,如 何 提高 干旱 预测 准确 性 .可靠 性 ,建立 干旱 
预测 模型 及 六 选 合适 的 模型 工具 是 急需 研究 探讨 
的 热点 问题 。 

目前 ,国内 外 常用 于 干旱 预测 的 方法 有 马尔 科 
夫 链 “灰色 系统 ”差分 自 回 归 移 动 平 均 ” 29 
等 。 机 器 学 习 模 型 因 其 强大 的 预测 能 力 王 -2 ,在 干 
旱 预 测 领域 也 得 到 广泛 应 用 ”2 二。 常见 的 机 需 学 
习 模型 有 小 波 神经 网 络 (WNN) .支持 向 量 回归 
(SVR) 随机 和 森林 (CRF)、 人 工 神经 网 络 (ANN) 等 。 
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利用 小 波 神经 网 络 (WNN)、 支 持 向 量 回归 (SVR)、 随 机 森林 (RF) 三 种 机 器 学 习 算 法 分 别 构建 了 
河北 系 干 旱 预 测 模型 ,利用 Kendall.K-S、.MAE 三 种 检验 方法 判定 模型 表现 及 其 稳定 性 。 研 究 
明 ;(1) WNN、SVR 模型 呈现 结果 在 不 同时 间 尺 度 SPI 存 在 差异 ,WNN 最 适合 12 个 月 尺度 SPI 干 
预测 ;SVR 最 适合 6 个 月 尺度 SP1 于 旱 预 测 。(2) 对 3、12 个 月 尺度 SP1,RF 预测 性 能 最 优 (Kendall > 
0.898, MAE < 0.05); 对 6.9 个 月 尺度 SPJ,SVR 预测 性 能 最 优 (Kendall > 0.95 ,MAE < 0.04). (3) 模型 
测 性 能 稳定 性 存在 区 别 ,RF 预测 稳 定性 最 高 ,其 次 为 SVR。(4) 构建 的 三 种 模型 表现 异同 主要 是 
因为 SVR 转 为 凸 优化 问题 解决 了 WNN 易 陷入 局 部 最 优 解 的 不 足 , 从 而 提高 了 模型 预测 性 能 ,REF 
可 影响 ,提高 了 模型 预测 准确 率 及 稳定 性 ,同时 ,RF 处 理 
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WNN 作为 小 波 变换 和 ANN 的 结合 ,具有 优 于 ANN 
的 非 线 性 处 理 能 力 ,被 大 量 用 于 干旱 预测 研究 ,如 
ZHANG"? 利用 6、12 个 月 尺度 标准 化 降水 指数 
(SPI) ,对 海河 北 系 进行 实证 预测 ,证 实 WNN 优 于 
ANN 的 拟 合 能 力 。 支 持 向 量 回归 (SVR) 由 SVM 
分 类 问题 扩展 而 来 ,采用 结构 风险 最 小 化 的 设 
计 ,适用 于 小 样本 数据 、 非 线性 问题 以 及 高 维 数 
He", SVR 也 得 到 了 广泛 应 用 ,如 Aminnejad' 2 
使 用 SPIT 和 SVR 对 乌 米 亚 湖 贫 地 干旱 进行 预测 , 预 
测 准 确 率 在 75% 以 上 ; 措 姆 采用 SVR, 以 3、6.9 个 
月 尺度 SPI 作 为 研究 对 象 , 预 测 流域 尺度 的 气象 干 
早 , 说 明了 SVR 预测 精度 优 于 数据 人 处理 组 合 方法 ， 
二 者 均 证 实 了 SVR 模型 在 干旱 预测 领域 的 适用 
性 。 尽 管 WNN SVR 已 被 证 明 可 以 用 于 干旱 预测 ， 
但 WNN 和 SVR 模 型 也 存在 着 预测 稳定 性 不 强 , 受 
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SPI 时 间 尺 度 影 响 较 大 等 问题 “”。RF 是 一 种 基于 
分 类 回归 树 的 组 合 模型 ,具有 稳定 的 预测 性 能 ,后 
时 可 以 处 理 包 含 噪 声 的 预测 变量 ,在 预测 研究 中 表 
现 较 好 2 , 吴 晶 鸣 利 用 SP 进行 干旱 等 级 分 类 ,用 随 
机 森林 模型 对 淮河 流域 进行 干旱 预测 ,整体 预测 平 
均 准 确 率 73.0%; 沈 润 平 2 基于 综合 气象 干旱 指数 
使 用 RF 模 型 对 河南 省 构建 遥感 干旱 监测 模型 , 监 
测 值 和 实测 综合 气象 干旱 指数 值 干旱 等 级 的 一 至 
率 达 到 81%。 以 上 案例 说 明了 这 几 种 机 器 模型 能 
够 开展 干旱 预测 。 

但 是 ,前 人 开展 干旱 预测 成 果 多 是 构建 单一 
算法 模型 ,以 单个 时 间 尺 度 干旱 指标 为 研究 对 
e -2 ,缺少 多 模型 多 时 间 尺 度 的 综合 对 比分 
析 。 利 用 RF 模型 与 WNN SVR 模 型 在 同一 研究 区 ， 
不 同时 间 尺 度 , 对 比分 析 干 旱 预 测 效果 的 文献 却 鲜 
见 。 同 时 ,前 人 文献 大 多 没有 对 几 种 模型 及 其 结 
稳定 性 开展 分 析 ,更 是 缺少 几 种 模型 算法 结果 表现 
差异 的 内 在 统计 机 理 的 探讨 分 析 。 基 于 此 ,本 研究 
借助 SP 的 4 种 时 间 尺 度 (3 月 .6 月 ,9 月 12 月 ) 值 ， 
构建 评价 了 海河 流域 北 系 WNN SVR RF 三 种 模型 
干旱 预测 表现 及 其 稳定 性 ,初步 探讨 了 模型 差异 化 
的 内 在 机 理 , 并 确定 最 优 干旱 模型 。 人 研究 结果 为 该 
地 区 或 其 他 地 区 开展 干旱 预测 提供 了 有 益 尝 试 。 


1 研究 区 概况 


1.1 研究 区 概况 
海河 北 系 地 处 北京 .天津 的 上 游 地 区 ,主要 包 


图 例 
^ 气象 站 点 
一 河流 


括 萄 运河 、 潮 白河 、 北 运河 .永定 河 等 河流 (图 1) ,是 
我 国 重要 的 工农 业 生 产 区 。 流 域 面积 为 8.34 x 10° 
km? ,其 中 山区 .平原 分 别 占 62.5% .37.5% , 属 温带 东 
亚 季风 气候 ,多 年 平均 降水 量 约 490 mm。 近 年 来 ， 
海河 北 系 降水 整体 偏 村 ,海河 流域 干旱 程度 及 干 
WAYS EFA? , 仅 1961 一 2011 年 海河 流 
域 干旱 发 生 次 数 达 48 次 以 上 。 
1.2 数据 

本 文 所 选用 数据 来 源 于 中 国 气 象 局 (http://www. 
cma.gov.cn/) ,选取 了 海河 北 系 8 个 国家 基准 气象 站 
点 ( 表 1)1960 一 2010 年 的 逐日 降水 数据 ,并 对 数据 
进行 了 严格 的 修订 和 质量 控制 ,降水 缺失 数据 取 附 
近 平 均值 奉 代 ,确保 数据 的 采集 时 间 连 续 、 完 整 。 
本 文 基于 1960 一 2010 年 日 降水 数据 ,计算 得 到 609 
个 3 个 月 尺度 SP 606 个 6 个 月 尺度 SP1 603 个 9 个 


表 1 气象 站 点 信息 
Tab.1 Information of the meteorological stations 


站 名 所 属 经度 ”纬度 ”高程 ”平均 年 降 ”最 大 年 降 

省 份 1E /°N /m 水 /mm 水 /mm 
北京 ”北京 116.5 39.8 31.3 370.2 579.0 
大 同 ”山西 113.3 40.1 1067.2 398.9 616.3 
丰 宁 河北 116.6 41.2 661.2 457.9 696.4 
怀 来 ”河北 115.5 40.4 536.8 399.0 591.5 
唐山 河北 118.2 39.7 27.8 379.0 543.6 
蔚 县 “河北 1146 398 909.5 7119 1 193.4 
张家口 河北 1149 408 724.2 549.2 913.2 
Wk 河北 118.0 40.2 54.9 605.4 1 007.7 


图 1 海河 北 系 气象 站 点 分 布 


Fig.1 Distribution of meteorological station of the north of the northern part of Haihe river basin 
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月 的 尺度 SPI、600 个 12 个 月 尺度 SPI。SPI 计 算 方 
法 请 见 参考 文献 30。 


2 ”模型 算法 


2.1 小 波 神 经 网 络 (WNN) 

WNN 在 传统 的 BP 神经 网 络 模 型 中 融合 了 小 波 
变换 理论 ,是 一 种 新 型 前 馈 神 经 网 络 模 型 ,WNN 使 
用 小 波 函 数 作 为 BP 神经 网 络 隐 含 层 神经 元 的 激发 
函数 引 。 记 模型 输入 量 为 x; (i=1,…,k) ,输入 层 与 
隐藏 层 的 连接 权重 为 w;, 隐 藏 层 与 输出 层 的 连接 权 
HE Neon, |) ESE PRION hy WHE BAN, hy EY A 
缩 因 子 为 a, 则 隐藏 层 神经 元 的 输出 为 : 


k 
Xox, =b, 
i=l 


e | 


J=1,°…,L (1) 


式 中 :1 为 隐藏 层 神经 元 数目 。 记 隐藏 层 第 i 个 神经 
元 输出 结果 为 h(i), m 为 输出 层 神 经 元 数目 , 则 输 
出 层 神 经 元 输出 结果 为 : 


E E (2) 


本 文 使 用 的 WNN 包括 输入 层 .隐藏 层 和 输出 

层 三 层 , 使 用 Morlet 母 小 波 基 峭 数 。Morlet 母 小 波 
y=cos(1.75x)e” (3) 

WNN 以 最 小 化 均 方 误差 为 原则 ,利用 梯度 下 降 
算法 逐步 调整 网 络 连 接 权 值 与 小 波 基 函数 的 平移 
因子 .尺度 因子 ,以 使 网 络 的 预测 输出 不 断交 近期 
望 输出 。WNN 的 训练 过 程 分 为 以 下 步 又 : 

步骤 1: 设 定 学 习 率 n 与 隐藏 层 神经 元 个 数 1, 随 
机 化 网 络 连接 权重 wy wi 及 小 波 函 数 伸 缩 因子 aj, 
平移 因子 bj, ;步骤 2: 分 割 数据 为 训练 集 和 测试 集 ， 
使 用 训练 集 数据 训练 网 络 , 使 用 测试 集 数据 计算 网 
络 预测 精度 ;步骤 3: 依 次 向 网 络 输入 训练 样本 , 计 
算 网 络 输出 与 相应 的 预测 误差 6。, 利 用 误差 e 的 反问 
传播 修正 网 络 权 值 和 小 波 函 数 参数 ;步骤 4: 判 断 算 
法 是 否 结束 ,如 没有 结束 ,返回 步 又 3。 
2.2 支持 向 量 回归 (SVR) 

SVR 作为 SVM 处 理 拟 合 回归 问题 的 一 类 模 


yi), (x22), Cay} CR KR, 为 输入 模式 的 空 
lia], GLA s 不 敏感 函数 作为 损失 函数 
ACE Ce 
| f(x) -y,|-2, |f(«)-yi|>e 
SVR FRYE HY BA ESP EAS KAC) =wxb 尽 
FY HET UEC WM (AS BOT (wb) 
引入 松弛 因子 上 ,es* ,根据 统计 学 习 理 论 的 结构 
风险 化 准则 ,回归 问题 转化 为 求解 如 下 凸 规 化 


问题 : 


min, . (He + oC(é. + (5) 
s.t.:0x,+b-y,<et€,/,y,-ox,-b<eté, 
HE >0,é°20. SADA BH H PRR, AA 

应 的 鞍点 条 件 简化 得 到 : 
min ,Yale -y)- yale +y.) 
YY (ara! -Qo )x x, 
sD (oaj=00<a as<C 
由 于 原始 优化 问题 有 不 等 式 约 束 ,需要 满足 如 
下 KKT(Karush-Kuhn-tucher) 条 件 : 
a; (y; -f (x;) ZE -é;) =0 
a,( f(x) -y,-@-&) =0 
a; a,=0;€,€; =0 
(C- a) é: =0; (C- a) E =0 
通过 序列 最 小 优化 算法 得 到 支持 向 量 决策 
模型 : 


(6) 


(7) 


f(a) =o" +b: D(a )e tb (8) 
进一步 引入 核 函 数 ,SVR 可 表示 为 : 
fl) =X (a; +a)k(xna)+b (9) 
2.3 随机 森林 (RE ) 

RF 是 由 Leo Breiman 5 在 2001 年 提出 的 一 种 
统计 学 习 理 论 ,是 基于 分 类 回归 树 的 组 合 模型 , 既 
可 用 以 数据 分 类 ,又 能 处 理 回 归 问 题 。RF 的 基本 思 
想 是 利用 自助 (bootstrap) 重 采样 技术 ,从 总 体 训 练 
样本 集 S 中 有 放 回 等 概率 地 重复 抽样 生成 Kk 个 新 的 
训练 样本 集 Cv ,…,Cx ,每 个 训练 样本 集 对 应 一 棵 决 


型 ,通过 建立 训练 数据 中 待 预 测 向 量 与 支持 向 量 间 
的 非 线性 关系 ,可 以 对 测试 数据 的 待 预 测 向 量 进行 
FWY, SVR 的 基本 原理 :给 定 训练 集 样本 D={ (mn, 


策 树 。 在 每 棵 树 的 结 点 ,随机 选取 奉 干 个 特征 进行 
节点 分 型 ,并 按照 节点 不 纯度 最 小 原则 选择 一 个 特 
征 对 该 节点 进行 分 裂 。 每 颗 决策 树 都 得 到 最 大 限 
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度 的 生长 ,不 进行 剪 校 操作 ,最 终 形成 一 个 多 元 非 
线性 组 合 模型 。 对 于 新 输入 数据 ,回归 模型 使 用 所 
有 决策 树 的 预测 平均 值 作为 最 终 预 测 结果 ,分 类 模 
型 的 预测 结果 由 投票 法 则 决定 。RF 回归 模型 算法 
原理 如 图 2 所 示 。 


决策 树 预测 
结果 1 

决策 树 预测 
结果 2 


子 样本 集 2 


FESS Hoh SE OO 
WAAR Be SS 


决策 树 预测 
结果 K 
图 2 RF 回归 模型 算法 原理 


Fig.2 Algorithm principle of RF regression model 


3 ”模型 构建 与 验证 


3.1 模型 构建 

各 模型 在 不 同 站 点 之 间 的 建 模 过 程 相 似 , 因 此 
本 文 仅 以 北京 站 点 为 例 介 绍 模型 构建 过 程 。 模 型 
构建 仅 使 用 SPI 数 据 , 以 SPI 历史 数据 作为 模型 输入 
变量 ,以 当前 SP7 值 作为 输出 变量 。 将 1960 年 到 
2002 年 4 月 的 SPI 作 为 分 析 建 模 数据 ,2002 年 5 月 到 
2010 年 的 SP7 数 据 作为 检验 数据 ,对 预测 模型 的 有 
效 性 和 稳定 性 进行 检验 。 

WNN 模型 需要 调节 的 超 参 数 包 括 为 输入 层 节 
点 数 .隐藏 层 节 点 数 和 学 习 率 ,输入 层 节 点 数 即 为 
延 时 阶 数 ( 预 测 当 前 SP7 所 需 历 史 数 据 的 个 数 )。 构 
建 WNN 模 型 时 ,首先 分 割 分 析 建 模 数 据 为 85% 的 训 
练 集 和 15%% 的 验证 集 ;而 后 使 用 训练 集 构建 模型 ， 
使 用 验证 集 计算 平均 绝对 误差 (MAE) ,并 利用 网 格 
搜索 以 MAE 最 小 为 原则 寻找 网 络 最 优 超 参 数 ,最 后 
使 用 分 析 建 模 数据 结合 最 优 超 参数 构建 WNN 模 
型 。 表 2 为 模型 调 参 结果 。 


#2 WNN 模 型 调 参 结果 
Tab.2 Results of WNN model parameter adjustment 


尺度 学 习 率 ”输入 层 市 点 数 ”隐藏 层 节点 数 
SPI-3 0.01 6 12 
SPI-6 0.001 2 18 
SPI-9 0.001 2 6 
SPI-12 0.001 2 6 


SVR、RF 模 型 的 构建 过 程 与 WNN 模 型 类 似 , 仪 
需要 优化 的 参数 存在 区 别 。 在 SVR、RF 模 型 构建 过 
程 中 ,发 现 仅 延 时 阶 数 对 模型 预测 性 能 影响 较 大 ， 
本 文 所 取 延 时 阶 数 范围 为 1-15。 图 3、4 显 示 RF、 
SVR 模 型 的 MAE 均 在 延 时 阶 数 为 3 时 达到 最 低 值 ， 
据 此 得 到 ,3 为 北京 站 点 模型 预测 的 最 优 延 时 阶 数 。 


0.35 -——- SPI-12 
—— SPI-9 
0.30 ---- SPI-6 
— SPI-3 
0.25 
a 0.20 
0.15 
0.10 
0.05 
0.00 
1234 5 6 7 8 9 10 11 1213 1415 
延 时 阶 数 
图 3 ”SVR 模型 延 时 阶 数 选取 
Fig.3 Selection of lag order of SVR model 
0.12 三 -=-= - SPI-12 
—— SPI-9 
-——- SPL6 
0.10 — gprs 
0.08 
0.06 
0.04 
0.02 | Le | 


! | 
9 10 1112 1314 15 


图 4 ”RF 模型 延 时 阶 数 选取 
Fig.4 Selection of lag order of SVR model 


3.2 模型 评价 

本 文采 用 MAE 、Kendall 秩 相关 系数 (Kendall) 、 
Kolmogorov-Smirnov(K-S) 检 验 定 量 评估 模型 预测 表 
ILo MAE 用 以 描述 两 样本 接近 程度 (预测 值 与 实测 
值 ), 值 趋 近 0 则 说 明 两 样本 接近 程度 高 ;Kendall 描 
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述 预 测 值 同 实测 值 相关 程度 , 值 越 接 近 1 越 好 ;K-S 
检验 基于 R 语 言 实现 ,计算 结果 为 两 样本 经 验 分 布 
函数 之 间 的 绝对 值 最 大 距离 , 记 为 D 统 计量 。D 值 
越 接 近 于 0, 两 个 样本 来 自 相 同 分 布 的 可 能 性 越 大 。 
3.3 ”模型 检验 
3.3.1 对 比分 析 对 各 研究 站 点 3 月 尺度 SP1 建 模 
预测 ,结果 见 表 3。WNN H Kendall 均 低 于 0.5,K-S 
检验 均 高 于 0.2,MAE 均 高 于 0.4, 说 明 WNN 模 型 不 
能 有 效 反 映 3 个 月 尺度 SP 的 波动 变化 。SVR VRE 
的 预测 表现 明显 优 于 WNN , H Kendall 达到 0.85 以 
上 ,K-S 检 验 均 在 0.2 之 下 。 同 时 ,RF 的 预测 性 能 远 
高 于 SVR, 其 Kendall 的 平均 值 较 SVR 高 约 3.7%， 
K-S 检 验 平均 值 较 SVR 低 约 30.9% ,MAE 平 均值 较 
SVR 低 约 66.7%。 

基于 3 月 尺度 SPI 研 究 方 法 ,得 到 各 模型 在 6 
月 .9 月 .12 月 SPI 预测 结果 ( 表 4、 表 5、 表 6)。 对 6 
个 月 尺度 SP1,WNN 模 型 预测 表现 最 差 ,最 优 预 测 结 
果 均 在 SVR 模 型 出 现 , 旦 其 MAE 平 均值 约 为 RF 的 
50% ,表明 对 于 6 个 月 尺度 SP1,SVR 预测 性 能 最 优 。 

对 9 月 尺度 SP1,SVR 的 Kendall 最 高 , 均 接近 1 ， 


且 除 站 点 丰 宁 外 ,其 MAE 最低, 虽 个 别 站 点 其 K-S 
检验 值 高 于 RF, 但 均 在 0.1 之 下 ,综合 所 有 评价 指 
标 ,在 9 月 尺度 SPI 上 SVR 预测 性 能 最 优 。 

对 12 月 尺度 SP1,WNN 的 MAE 均 在 0.15 以 上 ; 
SVR 的 K-S 检 验 在 站 点 丰 宁 、 怀 来 . 遵 化 .北京 高 于 
0.1;RF 在 各 评价 指标 值 的 表现 均 比 较 优异 , 其 Ken- 
dall 均 高 于 0.9,K-S 检 验 不 高 于 0.1, MAE 均 低 于 
0.04。 综 合 表明 ,对 12 月 尺度 SP1,RF 预测 性 能 
最 优 。 

3.3.2 稳定 性 分 析 通过 计算 评价 指标 的 站 点 平 
均值 ,探究 SPI 时 间 尺 度 变化 对 模型 预测 性 能 稳定 
性 的 影响 ( 见 图 5)。WNN 的 预测 性 能 随 着 SPI 时 间 
尺度 的 变化 表现 出 明显 差异 ,其 评价 指标 Kendall、 
K-S 检 验 MWAE 平 均值 的 极 差分 别 为 0.351、0.277、 
0.265, 且 对 12 月 尺度 SPI 的 预测 性 能 最 优 ,各 评价 
指标 值 都 显著 改善 。 

SVR 的 预测 性 能 随 着 SPI 时 间 尺 度 的 变化 表现 
出 轻微 差异 ,其 评价 指标 Kendall K-S 检 验 、MAE 平 
均值 的 极 差分 别 为 0.079、0.064、0.067, 且 对 6 月 尺 
度 SP7 预 测 性 能 最 优 。 


RI SPI-3 序 列 各 模型 比较 


Tab.3 Comparison of models of SPI-3 sequence 


模型 指标 大 同 HE EF 张家口 怀 来 遵 化 北京 唐山 
WNN Kendall 0.469 0.477 0.508 0.435 0.493 0.523 0.460 0.470 
K-S 检 验 0.462 0.264 0.300 0.352 0.400 0.275 0.330 0.264 
MAE 0.426 0.462 0.462 0.443 0.476 0.441 0.437 0.462 
SVR Kendall 0.908 0.923 0.899 0.861 0.859 0.897 0.907 0.928 
K-S 检 验 0.121 0.110 0.121 0.132 0.089 0.132 0.110 0.165 
MAE 0.068 0.054 0.088 0.087 0.086 0.108 0.111 0.095 
RF Kendall 0.928 0.936 0.929 0.898 0.937 0.952 0.925 0.944 
K-S 检 验 0.076 0.098 0.087 0.098 0.087 0.065 0.087 0.076 
MAE 0.018 0.033 0.027 0.027 0.029 0.033 0.034 0.035 
表 4 SPI-6 序 列 各 模型 比较 
Tab.4 Comparison of models of SPI—6 sequence 
模型 HER 大 同 月 县 丰 宁 张家口 怀 来 遵 化 北京 唐山 
WNN Kendall 0.712 0.716 0.691 0.708 0.699 0.700 0.711 0.710 
K-S 检 验 0.173 0.136 0.163 0.199 0.176 0.156 0.154 0.181 
MAE 0.328 0.346 0.392 0.358 0.356 0.383 0.316 0.382 
SVR Kendall 0.979 0.985 0.979 0.979 0.976 0.980 0.973 0.975 
K-S 检 验 0.044 0.033 0.055 0.055 0.088 0.055 0.077 0.066 
MAE 0.012 0.027 0.012 0.017 0.023 0.024 0.033 0.015 
RF Kendall 0.960 0.966 0.956 0.931 0.953 0.950 0.962 0.945 
K-S 检 验 0.055 0.088 0.077 0.077 0.088 0.066 0.044 0.077 
MAE 0.024 0.033 0.030 0.032 0.037 0.036 0.033 0.035 
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表 5 ”SPI-9 序 列 各 模型 比较 


Tab.5 Comparison of models of SPI—9 sequence 


模型 指标 大 同 HE +F 张家口 怀 来 遵 化 北京 唐山 
WNN Kendall 0.762 0.727 0.628 0.584 0.642 0.702 0.726 0.676 
K-S 检 验 0.176 0.143 0.198 0.154 0.132 0.264 0.132 0.176 
MAE 0.277 0.238 0.260 0.284 0.262 0.273 0.251 0.281 
SVR Kendall 0.981 0.993 0.995 0.979 0.998 0.991 0.980 0.993 
K-S 检 验 0.044 0.088 0.132 0.066 0.088 0.099 0.044 0.077 
MAE 0.020 0.028 0.036 0.027 0.017 0.026 0.016 0.022 
RF Kendall 0.973 0.958 0.942 0.935 0.946 0.940 0.953 0.950 
K-S 检 验 0.066 0.055 0.088 0.055 0.055 0.088 0.044 0.055 
MAE 0.028 0.032 0.029 0.036 0.029 0.031 0.030 0.033 


表 6 SP1-12 序 列 各 模型 比较 
Tab. 6 Comparison of models of SPI-12 sequence 


模型 指标 大 同 a EF 张家口 怀 来 遵 化 北京 唐山 
WNN Kendall 0.820 0.833 0.816 0.824 0.838 0.865 0.826 0.816 
K-S 检 验 0.047 0.044 0.057 0.035 0.057 0.052 0.077 0.063 
MAE 0.229 0.173 0.151 0.193 0.178 0.164 0.207 0.192 
SVR Kendall 0.961 0.917 0.998 0.979 0.996 0.989 0.987 0.992 
K-S 检 验 0.067 0.090 0.222 0.067 0.111 0.167 0.111 0.067 
MAE 0.049 0.064 0.039 0.025 0.024 0.032 0.028 0.020 
RF Kendall 0.958 0.949 0.936 0.955 0.941 0.948 0.957 0.948 
K-S 检 验 0.067 0.033 0.078 0.078 0.067 0.100 0.056 0.044 
MAE 0.035 0.029 0.026 0.029 0.026 0.033 0.031 0.027 


RF 的 预测 性 能 在 不 同时 间 尺 度 SPI 的 表现 无 
明显 差异 ,其 评价 指标 Kendall K-S 检 验 MAE FLY 
值 的 极 差分 别 为 0.003 .0.022 .0.021; 综 上 ,三 种 模型 
中 ,WNN 对 SPI 时 间 尺 度 的 变化 最 为 敏感 ,模型 的 
预测 性 能 最 不 稳定 ;RF 对 SPI 时 间 尺 度 的 变化 最 不 
敏感 ,模型 的 预测 性 能 最 稳定 。 


4 讨论 


研究 基于 1960-2010 年 日 降水 数据 ,以 SPT 作 


回 MAE 


1.0r 


WNN 


0.0 
SPI-3 SPI-6 SPI-9 SPI-12 SPI-3 SPI-6 
SVR RF 


为 干旱 指标 ,利用 WNN SVR、RF 三 种 模型 分 别 开 
展 海 河北 系 干旱 预测 ,利用 Kendall.K-S 检 验 、MAE 
分 别 评价 了 模型 预测 结果 表现 。SVR .REF 模型 预测 
性 能 优 于 WNN ,二 者 能 够 准确 反映 各 时 间 尺 度 SPI 
序列 的 波动 变化 。WNN 模 型 预测 性 能 最 差 。SVR、 
RF 具有 不 同时 间 尺 度 SPI 的 适用 性 , 对 3、12 月 尺 
FE SPI, RF 预测 性 能 优 于 SVR, 而 对 另 两 个 时 间 尺 
度 ,SVR 优 于 RF。 尽 管 SVR 在 个 别 时 间 尺 度 SPI 的 
预测 性 能 优 于 RF, 但 RF 的 预测 性 能 稳定 性 强 于 


E K-S O Kendall 


0. 
SPI-9 SPI-12 SPI-3 SPI-6 SPI-9 SPI-12 


图 5 模型 稳定 性 比较 


Fig. 5 Comparison of model stability 
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SVR。3 种 预测 模型 中 ,WNN 调 参 过 程 最 为 复杂 且 
模型 运算 速度 最 慢 ,SVR RF 的 调 参 过 程 相 较 简单 ， 
仅 需 优化 滞后 阶 数 , 且 运 算 速 度 快 。 模 型 预测 性 能 
的 差异 主要 由 以 下 方面 导致 :(1)WNN 模 型 基于 
ANN 模型 ,存在 收敛 到 局 部 最 优 解 的 问题 ,模型 预 
测 准确 度 因 此 得 不 到 保证 。(2)SVR 模型 通过 转化 
为 凸 优 化 问题 ,避免 了 WNN 模 型 陷入 局 部 最 优 解 
的 问题 ,因此 提升 了 模型 预测 精度 ,(3)RF 模 型 为 一 
种 集成 学 习 算 法 ,多样 化 的 回归 树 能 够 有 效 提高 弱 
学 习 器 的 预测 效果 ,从 而 提高 了 模型 预测 的 准确 率 
与 稳定 性 , 且 RF 对 噪声 具有 较 好 的 容 奶 性 后 ,在 处 
理 含 有 噪声 的 降水 数据 时 优势 更 大 。 鉴 于 各 模型 
预测 表现 ,开展 干旱 预测 或 预警 分 析 时 ,建议 灵活 
选用 模型 。 对 本 文 已 探讨 过 的 时 间 尺 度 的 SPL, 依 
据 性 能 最 优选 择 预 测 模 型 ,对 多 时 间 尺 度 SPI 进 行 
的 预测 研究 ,建议 选择 预测 性 能 优异 且 预 测 稳定 性 
最 强 的 RF 模型 。 未 来 可 以 进一步 比较 探究 SVR、 
RF 在 更 长 时 间 尺 度 以 及 其 他 地 区 干旱 预测 的 适用 
隆 ,同时 ,三 种 模型 预测 结果 轨迹 不 同 的 内 在 统计 
机 制 也 需 更 进一步 研究 。 


5 结论 

(1) 三 种 机 器 学 习 模 型 在 不 同时 间 尺 度 SP7 预 
测 表现 分 别 为 ,WNN 最 适用 于 12 个 月 尺度 SPI 的 预 
W; SVR 最 适用 于 6 个 月 尺度 SPJ 的 预测 ;RF 对 不 同 
时 间 尺 度 SP7 预 测 效果 无 明显 区 别 。 

(2) 在 同一 时 间 尺 度 上 ,对 于 3、12 个 月 尺度 
SPI, RF 具有 最 优 的 预测 性 能 (Kendall > 0.898, 
MAE < 0.05 ) ,能 够 较 准确 反映 SP7 真 值 的 变化 情况 ; 
对 于 6、9 个 月 尺度 SPI,SVR 具有 最 优 的 预测 性 能 
(Kendall > 0.95, MAE < 0.04) ,上 且 对 于 6 个 月 尺度 
SP1,SVR 模 型 的 预测 性 能 为 本 文 所 有 预测 研究 中 最 
优 的 。 

(3) 从 SPI 时 间 尺 度 变化 对 模型 预测 性 能 影响 
的 角度 来 看 ,WNN 模 型 的 稳定 性 最 差 , RF 预测 性 能 
稳定 性 最 高 ,其 评价 指标 Kendall . K-S 检 验 、WMAE 的 
平均 值 在 不 同时 间 尺 度 SPI 极 差 最 低 , 分 别 为 
0.003 ,0.022 .0.021。 
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Drought prediction based on machine learning models in the northern part of 
Haihe River Basin 
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3 National Meteorological Information Center , Beijing 100081, China ) 


Abstract: Drought is one of the major natural disasters. Improving the accuracy of drought prediction can provide 
reliable data to support drought response and risk prevention. The construction of suitable drought prediction mod- 
els is a current research hotspot. Machine learning models are widely used for drought forecasting such as artificial 
neural network (ANN), wavelet neural network (WNN) , support vector regression (SVR) and random forest (RF). 
This paper explored and compared the forecasting abilities and stabilities of the wavelet neural network (WNN) , 
support vector regression (SVR) and random forest (RF) in the northern part of the Haihe River Basin, China. The 
northern part of the Haihe River Basin is located in the upper reaches of Beijing and Tianjin, which is an important 
industrial and agricultural production area in China. The total area is 8.34x10° km’. It has a temperate monsoon cli- 
mate with average annual precipitation of 490 mm. The models used in this paper are based on the standard precipi- 
tation index (SPI) at different time scales (3,6,9 and 12 months). The SPI was calculated using daily precipita- 
tion data obtained at eight meteorological points in the northern part of the Haihe River Basin from 1960 to 2010. 
Then, the SPI series were predicted use the WNN,SVR and RF models separately. The effectiveness of the three 
machine learning models is compared by Kendall rank correlation (Kendall) , Kolmogorov-Smirnov (K-S) test and 
mean absolute error (MAE). The following results were observed:(1) The prediction abilities of the WNN and SVR 
models vary at different time scales, with WNN performing best suited for SP/-12 and SVR best suited for SPI-6. 
(2) For the SPI-3 and SPI-12, the RF prediction performance was optimal (Kendall > 0.898, MAE < 0.05). For 
the SPI-6 and SPI-9 , the SVR prediction performance was optimal (Kendall > 0.95, MAE < 0.04). (3) The stabili- 
ty of the model prediction performances differed , with RF being most stable, followed by SVR. (4) The variation in 
model predictions performance is due to the following: the convex optimization of SVR resolves the WNN weakness 
of falling into a local optimal solution, thereby improving the prediction performance of the model. The RF boosting 
diversified regression trees , which reduce the negative influence of weak learners, improve the prediction accuracy 
and stability of the model. Furthermore , the capacity of the RF model is strongest in its ability to cope with precipita- 
tion data that contains noise. This paper presents a comprehensive analysis of the drought prediction performance of 
multiple models at multiple time scales for SPI series and preliminarily explores the internal mechanisms of model 
differentiation. The result of this study provides alternative models and research ideas for the northern part of the 
Haihe River Basin and beyond. 
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